由于机器学习(ML)技术和应用正在迅速改变许多计算领域,以及与ML相关的安全问题也在出现。在系统安全领域中,已经进行了许多努力,以确保ML模型和数据机密性。ML计算通常不可避免地在不受信任的环境中执行,并因此需要复杂的多方安全要求。因此,研究人员利用可信任的执行环境(TEES)来构建机密ML计算系统。本文通过在不受信任的环境中分类攻击向量和缓解攻击载体和缓解来进行系统和全面的调查,分析多方ML安全要求,并讨论相关工程挑战。
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
我们介绍了一种新的图像取证方法:将物理折射物(我们称为图腾)放入场景中,以保护该场景拍摄的任何照片。图腾弯曲并重定向光线,因此在单个图像中提供了多个(尽管扭曲)的多个(尽管扭曲)。防守者可以使用这些扭曲的图腾像素来检测是否已操纵图像。我们的方法通过估计场景中的位置并使用其已知的几何和材料特性来估算其位置,从而使光线通过图腾的光线不十障。为了验证图腾保护的图像,我们从图腾视点重建的场景与场景的外观从相机的角度来检测到不一致之处。这样的方法使对抗性操纵任务更加困难,因为对手必须以几何一致的方式对图腾和图像像素进行修改,而又不知道图腾的物理特性。与先前的基于学习的方法不同,我们的方法不需要在特定操作的数据集上进行培训,而是使用场景和相机的物理属性来解决取证问题。
translated by 谷歌翻译
视觉宣传活动的挑战性输入设置之一是,当初始摄像头视图相距甚远时。这样的设置很困难,因为宽的基线会导致物体外观发生巨大变化并引起阻塞。本文为宽基线图像提供了一种新颖的自我监督的视觉伺服伺服方法,这不需要3D地面真相监督。回归绝对相机相对于对象的现有方法需要以3D边界框或网格的形式的对象的3D地面真实数据。我们通过利用称为3D均衡的几何特性来了解连贯的视觉表示形式 - 表示表示作为3D转换的函数以可预测的方式进行转换。为了确保功能空间忠实于基础的大地测量空间,地球保留的约束与均衡相结合。我们设计了一个暹罗网络,该网络可以有效地强制执行这两个几何特性,而无需3D监督。借助学习的模型,可以简单地通过在学习空间中的梯度并用作闭环视觉陶器的反馈来推断相对转换。我们的方法对来自YCB数据集的对象进行了评估,在使用3D监督的最新方法方面显示了视觉伺服任务上有意义的超越性能或对象对齐任务。我们的平均距离误差降低超过35%,成功率超过90%,误差耐受性。
translated by 谷歌翻译
使用量子卷积神经网络(QCNN)的机器学习在量子和经典数据分类中都取得了成功。在先前的研究中,在少数参数制度中,在相同的训练条件下,QCNN的分类准确性比其经典对应物具有更高的分类精度。但是,由于量子电路的大小有限,因此很难检查大规模量子模型的一般性能,这可以在不久的将来可靠地实施。我们建议转移学习是在嘈杂的中间量子量子时代利用小QCNN的有效策略。在经典到量词转移学习框架中,QCNN可以通过使用预训练的经典卷积神经网络(CNN)来解决复杂的分类问题,而无需大规模量子电路。我们对QCNN模型进行了数值模拟,并在转移学习下对MNIST数据分类进行了各种量子卷积和汇总操作,其中经典的CNN经过了时尚持续数据的培训。结果表明,在相似的训练条件下,从经典到量子CNN的转移学习比纯粹的经典转移学习模型要好得多。
translated by 谷歌翻译
减少源和目标域之间的表示形式差异是最大化模型概括的关键组件。在这项工作中,我们倡导利用自然语言监督域的概括任务。我们将两个模块介绍给地面视觉表示,其中包含人类典型推理的文本:(1)视觉和文本关节嵌入器以及(2)文本解释发生器。前者学习图像文本的关节嵌入空间,我们可以将高级类别歧视性信息接地到模型中。后者利用了一个可解释的模型,并生成了解释,证明其决定背后的理由是合理的。据我们所知,这是为域泛化任务利用视觉和语言跨模式方法的第一项工作。我们使用新创建的CUB-DG基准数据集进行的实验表明,可以成功地将跨模式监督用于接地域不变的视觉表示并改善模型的概括。此外,在大规模域基准测试中,我们提出的方法可实现最先进的结果,并在五个多域数据集的平均性能中排名第一。数据集和代码可在https://github.com/mswzeus/gvrt上找到。
translated by 谷歌翻译
归纳转移学习旨在通过利用源任务中的预训练模型来从少量培训数据中学习目标任务。大多数涉及大规模深度学习模型的策略采用预先培训的模型和进行目标任务进行初始化。但是,当使用过度参数化模型时,我们通常可以在不牺牲源任务的准确性的情况下修剪模型。这促使我们采用模型修剪来通过深度学习模型进行转移学习。在本文中,我们提出了PAC-NET,这是一种简单而有效的方法,用于基于修剪的转移学习。 PAC-NET由三个步骤组成:修剪,分配和校准(PAC)。这些步骤背后的主要思想是确定源任务的基本权重,通过更新基本权重来微调源任务,然后通过更新剩余的冗余权重来校准目标任务。在各种广泛的感应转移学习实验集中,我们表明我们的方法通过很大的边距实现了最先进的性能。
translated by 谷歌翻译
与单轴平面成像的2-D超声(US)相比,3-D US成像系统可以沿三个轴平面可视化容积。这允许完整的解剖学观察,这对于妇科(GYN)和产科(OB)应用是有用的。不幸的是,与2-D US相比,3-D US在分辨率中具有固有的限制。例如,在3-D US与3-D机械探针的情况下,例如,图像质量沿着光束方向可比较,但在其他两个轴向图像平面中通常观察到图像质量的显着劣化。为了解决这个问题,我们提出了一种新颖的无监督的深度学习方法来提高3-D US图像质量。特别是,使用{\ EM无与伦比的}高质量的2-D US图像作为参考,我们培训了最近提出的可切换Cyclean架构,以便在3-D中的每个映射平面都可以学习2-D US图像的图像质量。由于可切换架构,我们的网络还可以根据用户偏好提供对图像增强级别的实时控制,这是以用户为中心的扫描仪设置的理想选择。具有临床评估的广泛实验证实,我们的方法提供了显着提高的图像质量,也能成为用户友好的灵活性。
translated by 谷歌翻译
本文介绍了一个混合运动规划策略,将深度生成网络与传统运动规划方法相结合。现有的规划方法如* *和混合动力A *被广泛用于路径规划任务,因为它们即使在复杂的环境中确定可行的路径也是如此;但是,它们对效率有局限性。为了克服这些限制,介绍了一种基于神经网络的路径规划算法,即神经混合A *。本文使用条件变形Autiachoder(CVAE)提出通过利用CVAE在给定停车环境的信息的情况下学习有关规划空间信息的能力来指导搜索算法。基于在示威中学到的可行轨迹的分布,利用了非均匀的扩展策略。该方法有效地学习给定状态的表示,并显示了算法性能方面的改进。
translated by 谷歌翻译
在Enocentric视频中,行动在快速连续中发生。我们利用了行动的时间背景,并提出了一种学习参加周围行动的方法,以提高识别性能。为了纳入时间上下文,我们提出了一种基于变换器的多模式模型,可将视频和音频作为输入模式摄取,具有显式语言模型,提供动作序列上下文来增强预测。我们在史诗厨房和EGTEA数据集上测试我们的方法,报告最先进的性能。我们的消融展示了利用时间上下文的优势以及将音频输入模态和语言模型结合到Rescore预测。代码和模型在:https://github.com/ekazakos/mtcn。
translated by 谷歌翻译